拍拍贷数据 探索性分析

基于拍拍贷真实业务数据样本,本文探索了P2P交易中的交易现象,主要框架如下:

  1. 数据集的收集和预处理
  2. 单变量的绘图和分析
  3. 双变量的绘图和分析
  4. 多变量的绘图和分析
  5. 定稿图和总结
  6. 反思

数据集预处理

在R中设置工作路径,并导入包含有数据集的csv文件。

获取数据后,观察三个数据集在质量和整洁度方面是否存在问题。篇幅原因只展示LC数据集。

## 'data.frame':    328553 obs. of  21 variables:
##  $ ListingId       : int  126541 133291 142421 149711 152141 162641 171191 175451 182261 193831 ...
##  $ 借款金额        : int  18000 9453 27000 25000 20000 20000 3940 20000 25000 10475 ...
##  $ 借款期限        : int  12 12 24 12 6 12 6 12 12 6 ...
##  $ 借款利率        : num  18 20 20 18 16 14 18 18 16 18 ...
##  $ 借款成功日期    : Factor w/ 756 levels "2015-01-01","2015-01-02",..: 119 70 477 84 22 79 172 439 75 100 ...
##  $ 初始评级        : Factor w/ 6 levels "A","B","C","D",..: 3 4 5 3 3 1 5 2 2 3 ...
##  $ 借款类型        : Factor w/ 4 levels "APP闪电","其他",..: 2 2 3 2 4 3 4 3 2 4 ...
##  $ 是否首标        : Factor w/ 2 levels "否","是": 1 1 1 1 1 1 1 1 1 1 ...
##  $ 年龄            : int  35 34 41 34 24 36 27 32 33 25 ...
##  $ 性别            : Factor w/ 2 levels "女","男": 2 2 2 2 2 2 1 2 1 2 ...
##  $ 手机认证        : Factor w/ 2 levels "成功认证","未成功认证": 1 2 1 1 1 1 1 1 1 1 ...
##  $ 户口认证        : Factor w/ 2 levels "成功认证","未成功认证": 2 1 2 1 1 1 1 1 2 1 ...
##  $ 视频认证        : Factor w/ 2 levels "成功认证","未成功认证": 1 2 2 1 1 1 1 1 1 1 ...
##  $ 学历认证        : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
##  $ 征信认证        : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
##  $ 淘宝认证        : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
##  $ 历史成功借款次数: int  11 4 5 6 13 7 15 7 7 9 ...
##  $ 历史成功借款金额: num  40326 14500 21894 36190 77945 ...
##  $ 总待还本金      : num  8713 7891 11726 9703 0 ...
##  $ 历史正常还款期数: int  57 13 25 41 118 56 75 52 41 49 ...
##  $ 历史逾期还款期数: int  16 1 3 1 14 0 8 0 2 4 ...
##    ListingId           借款金额         借款期限        借款利率   
##  Min.   :  126541   Min.   :   100   Min.   : 1.00   Min.   : 6.5  
##  1st Qu.:11908871   1st Qu.:  2033   1st Qu.: 6.00   1st Qu.:20.0  
##  Median :19523251   Median :  3397   Median :12.00   Median :20.0  
##  Mean   :19079479   Mean   :  4424   Mean   :10.21   Mean   :20.6  
##  3rd Qu.:26298621   3rd Qu.:  5230   3rd Qu.:12.00   3rd Qu.:22.0  
##  Max.   :32819531   Max.   :500000   Max.   :24.00   Max.   :24.0  
##                                                                    
##      借款成功日期    初始评级      借款类型      是否首标   
##  2017-01-25:  3558   A: 10284   APP闪电:112079   否:241090  
##  2017-01-20:  3063   B: 33188   其他   : 97302   是: 87463  
##  2016-12-14:  2266   C:131705   普通   :118103              
##  2016-12-02:  2033   D:134860   电商   :  1069              
##  2017-01-09:  1859   E: 17027                               
##  2017-01-04:  1806   F:  1489                               
##  (Other)   :313968                                          
##       年龄       性别              手机认证            户口认证     
##  Min.   :17.00   女:106607   成功认证  :123007   成功认证  : 10105  
##  1st Qu.:24.00   男:221946   未成功认证:205546   未成功认证:318448  
##  Median :28.00                                                      
##  Mean   :29.14                                                      
##  3rd Qu.:33.00                                                      
##  Max.   :56.00                                                      
##                                                                     
##        视频认证            学历认证            征信认证     
##  成功认证  : 18501   成功认证  :114124   成功认证  :  9606  
##  未成功认证:310052   未成功认证:214429   未成功认证:318947  
##                                                             
##                                                             
##                                                             
##                                                             
##                                                             
##        淘宝认证      历史成功借款次数  历史成功借款金额    总待还本金     
##  成功认证  :  1152   Min.   :  0.000   Min.   :      0   Min.   :      0  
##  未成功认证:327401   1st Qu.:  0.000   1st Qu.:      0   1st Qu.:      0  
##                      Median :  2.000   Median :   5000   Median :   2542  
##                      Mean   :  2.323   Mean   :   8786   Mean   :   3722  
##                      3rd Qu.:  3.000   3rd Qu.:  10355   3rd Qu.:   5447  
##                      Max.   :649.000   Max.   :7405926   Max.   :1172653  
##                                                                           
##  历史正常还款期数   历史逾期还款期数 
##  Min.   :   0.000   Min.   : 0.0000  
##  1st Qu.:   0.000   1st Qu.: 0.0000  
##  Median :   5.000   Median : 0.0000  
##  Mean   :   9.948   Mean   : 0.4233  
##  3rd Qu.:  13.000   3rd Qu.: 0.0000  
##  Max.   :2507.000   Max.   :60.0000  
## 

发现了如下问题:

经过数据清理,最大的成功还款期数为

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   5.000   9.773  13.000 120.000

单变量绘图

1. 对LC数据集的观察和分析

1.1 借款金额的分布

借款金额的统计量如下,

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    2033    3397    4424    5230  500000

由此可见以下有趣的现象:

  • 大量交易的借款金额处在1000~10000这个范围内(蓝色区域为该范围)。
  • 大于50 000的借款很少,在拍拍贷这个P2P平台中,大量交易还属于小额借款。所以重点关注金额在50 000元以下的业务。

在对借款金额分布进行了对数和开方转化后,可以发现金额大部分集中1000~10000范围内。

1.2 借款人中,男性多还是女性多?

由此可见,男性比例更高。

1.3 借款的男性和女性,分别倾向于选择哪种借款期限?

借款期限的统计量如下,

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    6.00   12.00   10.21   12.00   24.00

由此可见,男性和女性在选择借款期限上都较为一致,一般选择6期或者12期。

2. 对LP数据集的观察和分析

所有交易的还款状态分布是怎么样的?

由此可见,大部分是未还款或“已正常还款”,有一定量的“已逾期还款”,“已提前还清该标全部欠款’”和“已部分还款”比较少。

3. 对LCIS数据集的观察和分析

大部分借款人的初始评级分布是怎样的?

由此可见,大部分借款人的初始评级为B或者C。男性的C类较多,女性的B类较多。

需要说明的是,本文之后的变量绘图和分析采用的数据均来自LC数据集。

单变量分析

1. 你的数据集结构是什么?

拍拍贷数据分析项目一共提供了3个数据集。包含了成交时间从2015年1月1日到2017年1月30日的328553支信用标。

  • LC表:标的特征表,每支标一条记录。共有21个字段,包括一个主键(listingid)、7个标的特征和13个成交当时的借款人信息,全部为成交当时可以获得的信息。
## 'data.frame':    328553 obs. of  21 variables:
##  $ ListingId       : int  126541 133291 142421 149711 152141 162641 171191 175451 182261 193831 ...
##  $ 借款金额        : int  18000 9453 27000 25000 20000 20000 3940 20000 25000 10475 ...
##  $ 借款期限        : int  12 12 24 12 6 12 6 12 12 6 ...
##  $ 借款利率        : num  18 20 20 18 16 14 18 18 16 18 ...
##  $ 借款成功日期    : Factor w/ 756 levels "2015-01-01","2015-01-02",..: 119 70 477 84 22 79 172 439 75 100 ...
##  $ 初始评级        : Factor w/ 6 levels "A","B","C","D",..: 3 4 5 3 3 1 5 2 2 3 ...
##  $ 借款类型        : Factor w/ 4 levels "APP闪电","其他",..: 2 2 3 2 4 3 4 3 2 4 ...
##  $ 是否首标        : Factor w/ 2 levels "否","是": 1 1 1 1 1 1 1 1 1 1 ...
##  $ 年龄            : int  35 34 41 34 24 36 27 32 33 25 ...
##  $ 性别            : Factor w/ 2 levels "女","男": 2 2 2 2 2 2 1 2 1 2 ...
##  $ 手机认证        : Factor w/ 2 levels "成功认证","未成功认证": 1 2 1 1 1 1 1 1 1 1 ...
##  $ 户口认证        : Factor w/ 2 levels "成功认证","未成功认证": 2 1 2 1 1 1 1 1 2 1 ...
##  $ 视频认证        : Factor w/ 2 levels "成功认证","未成功认证": 1 2 2 1 1 1 1 1 1 1 ...
##  $ 学历认证        : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
##  $ 征信认证        : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
##  $ 淘宝认证        : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
##  $ 历史成功借款次数: int  11 4 5 6 13 7 15 7 7 9 ...
##  $ 历史成功借款金额: num  40326 14500 21894 36190 77945 ...
##  $ 总待还本金      : num  8713 7891 11726 9703 0 ...
##  $ 历史正常还款期数: int  57 13 25 41 118 56 75 52 41 49 ...
##  $ 历史逾期还款期数: int  16 1 3 1 14 0 8 0 2 4 ...
  • LP表:标的还款计划和还款记录,每支标每期还款为一条记录。共有10个字段,包括两个主键(listingid和期数),3个还款计划字段和4个还款状态字段。
## 'data.frame':    3203276 obs. of  10 variables:
##  $ ListingId : int  126541 126541 126541 126541 126541 126541 126541 126541 126541 126541 ...
##  $ 期数      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ 还款状态  : int  1 1 1 1 1 1 2 1 2 2 ...
##  $ 应还本金  : num  1380 1401 1422 1443 1465 ...
##  $ 应还利息  : num  270 249 228 207 185 ...
##  $ 剩余本金  : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ 剩余利息  : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ 到期日期  : Factor w/ 1424 levels "2015-01-19","2015-01-27",..: 127 157 188 219 249 280 310 341 372 401 ...
##  $ 还款日期  : Factor w/ 779 levels "\\N","2015-01-04",..: 149 179 210 241 271 302 333 363 395 425 ...
##  $ recorddate: Factor w/ 1 level "2017-02-22": 1 1 1 1 1 1 1 1 1 1 ...
  • LCIS表:所提供数据包含了该客户投资的从2015年1月1日起成交的所有标。LC部分共有21个字段,包括一个主键(listingid)、7个标的特征和13个成交当时的借款人信息,全部为成交当时可以获得的信息。IS部分有15个字段,包括截至recorddate当天标的还款状态,针对这位客户的已还和待还金额,最近的还款情况和下一期还款计划。
## 'data.frame':    292539 obs. of  37 variables:
##  $ ListingId       : int  1693100 1713229 1904026 2158281 2257194 2272036 2315058 2332817 2365175 2370723 ...
##  $ 借款金额        : int  3629 3000 3629 3919 14000 40000 3200 3000 4260 11987 ...
##  $ 借款期限        : int  6 12 12 12 12 6 3 6 7 12 ...
##  $ 借款利率        : num  12 12 12 18 18 15 10 12 12 16 ...
##  $ 借款成功日期    : Factor w/ 654 levels "2015/1/1","2015/1/10",..: 21 24 90 98 108 114 114 150 150 151 ...
##  $ 初始评级        : Factor w/ 8 levels "A","AA","AAA",..: 2 2 2 5 5 4 2 2 2 4 ...
##  $ 借款类型        : Factor w/ 5 levels "APP闪电","其他",..: 4 4 4 4 4 5 4 4 4 2 ...
##  $ 是否首标        : Factor w/ 2 levels "否","是": 1 2 1 1 1 2 1 2 1 1 ...
##  $ 年龄            : int  31 24 27 28 46 32 25 38 25 33 ...
##  $ 性别            : Factor w/ 2 levels "女","男": 2 2 2 2 2 2 2 2 2 1 ...
##  $ 手机认证        : Factor w/ 5 levels "其他","已婚",..: 3 3 3 3 3 3 3 3 3 5 ...
##  $ 户口认证        : Factor w/ 9 levels "中专","初中及以下",..: 6 6 6 4 6 4 6 6 6 6 ...
##  $ 视频认证        : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 1 2 2 1 2 ...
##  $ 学历认证        : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 1 1 ...
##  $ 征信认证        : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
##  $ 淘宝认证        : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
##  $ 历史成功借款次数: Factor w/ 83 levels "0","1","10","103",..: 2 1 2 51 7 1 41 1 2 41 ...
##  $ 历史成功借款金额: Factor w/ 19185 levels "0","100","1000",..: 10834 1 10834 2900 15316 1 1611 1 10834 1196 ...
##  $ 总待还本金      : num  1313 0 879 6523 11491 ...
##  $ 历史正常还款期数: int  2 0 5 25 53 0 8 0 3 8 ...
##  $ 历史逾期还款期数: int  2 0 0 0 0 0 0 0 0 1 ...
##  $ 我的投资金额    : int  200 500 500 100 100 206 400 51 51 100 ...
##  $ 当前到期期数    : int  6 12 12 12 12 6 3 6 7 12 ...
##  $ 当前还款期数    : int  6 9 12 2 0 6 3 6 4 9 ...
##  $ 已还本金        : num  200 500 500 100 0 206 400 51 51 100 ...
##  $ 已还利息        : num  7 29.8 33.04 1.72 0 ...
##  $ 待还本金        : num  0 0 0 0 100 0 0 0 0 0 ...
##  $ 待还利息        : num  0 0 0 0 9.92 0 0 0 0 0 ...
##  $ 标当前逾期天数  : int  0 0 0 0 589 0 0 0 0 0 ...
##  $ 标当前状态      : Factor w/ 234 levels "0","0.03","0.05",..: 232 232 232 232 234 232 232 232 232 232 ...
##  $ 上次还款日期    : Factor w/ 792 levels "0","1","10","11",..: 259 36 510 188 792 45 247 83 296 345 ...
##  $ 上次还款本金    : Factor w/ 4138 levels "0","0.05","0.07",..: 2343 1140 2896 4096 4138 2422 689 3868 2005 2405 ...
##  $ 上次还款利息    : Factor w/ 409 levels "0","0.01","0.02",..: 31 106 39 23 409 43 112 6 1 19 ...
##  $ 下次计划还款日期: Factor w/ 1025 levels "0.92","0.93",..: 1025 1025 1025 1025 154 1025 1025 1025 1025 1025 ...
##  $ 下次计划还款本金: Factor w/ 2054 levels "0","0.01","0.02",..: 2054 2054 2054 2054 1826 2054 2054 2054 2054 2054 ...
##  $ 下次计划还款利息: Factor w/ 355 levels "0","0.01","0.02",..: 355 355 355 355 151 355 355 355 355 355 ...
##  $ recorddate      : Factor w/ 201 levels "0","0.94","1.27",..: 33 33 33 33 33 33 33 33 33 33 ...

2. 你的数据集内感兴趣的主要特性有哪些?

结合这三个数据集,我深入挖掘LC数据集的信息,主要关注借款金额这个变量。其他各变量的变化会如何影响借款金额。从这个角度观察数据可以对借款人和投资人对行为提供参考:借款人如何改进自身的指标从而能够借到更多的钱,投资人面对的是怎样的借款交易市场。

3. 你认为数据集内哪些其他特征可以帮助你探索兴趣特点?

初始评级、年龄、认证方式、历史成功借款情况等因素,都可能会影响借款金额。并且这些因素对借款金额和投资行为都有很强烈的影响。

4. 根据数据集内已有变量,你是否创建了任何新变量?

4.1 身份认证指数

项目数据集中提供了很多种认证方式,我将其赋予不同的权重,构建了线性组合模型,设计了一个新变量:身份认证指数,来综合各种认证方式的效果。

线性组合模型为

\[ 身份认证指数 = (1.0 * 手机认证指数 + 2.0 * 户口认证指数 + 1.0 * 视频认证指数 + 2.0 * 学历认证指数 + 3.0 * 征信认证指数 + 1.0 * 淘宝认证指数)/(1+2+1+2+3+1) \]

显然,当所有方式均成功认证,则为满分(1分)。

本文提出这种思路,并给出示例,如何确定权重采用怎样的组合模型可以根据相关资料进行深入探索。

身份认证指数的统计量如下,

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.1000  0.1276  0.2000  1.0000

身份认证指数的平均值分布为0.13分,中位数为0.1分。由此发现,大量的借款人并没有进行身份认证。应当采用用户运营手段来促使借款人认证,获取足够数据源便于分析。

4.2 历史成功单次借款金额

基于 LC_clean 数据集,定义了 历史成功单次借款金额(Historical successful single loan amount)简写为 hs1LA,即每笔交易借款金额平均值。

历史成功单次借款金额的统计量如下,

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       0       0    2500    2811    4000  500000

由此可见,

  • 大量借款交易中的历史成功单次借款金额在50 000元(蓝色虚线)以下。
  • 且历史成功单次借款金额为0元(橙色虚线)的交易也大量存在,有150 000笔以上。

5. 在已经探究的特性中,是否存在任何异常分布?你是否对数据进行一些操作,如清洁、调整或改变数据的形式?如果是,你为什么会这样做?

对借款金额分布的探究中,进行了对数和开方的处理。结合统计量成果,可以直观感受到P2P借贷业务主要是小金额交易。由于大量交易是小金额的,所以选取小于50 000元的交易,从而可以发现更多成果。

双变量绘图

针对LC_clean数据集进行分析。通过绘制散点图矩阵,对许多组变量同时进行对比,获得数据集的整体感知。

LC数据集中部分变量的相关性分析矩阵如下,

每一笔交易中的借款或投资金额与借款人的偿还能力、消费需求和社会属性有关系。

根据散点图矩阵可发现,借款金额和年龄(社会属性)具有正相关性,由此可以大胆推测借款金额与身份认证指数也具有一定相关性,在之后的研究可以深入探索。

借款金额与以往的借款表现(如历史成功借款次数和金额)具有很强的相关性。而历史借款数据之间有很强的正相关性。

针对LC数据集,探索每笔交易中的借款金额和各变量之间的关系,现在挑选了年龄、身份认证指数、与历史成功单次借款金额。

1. 借款金额与年龄的关系

由此可见,在借款金额用对数处理后,大量交易处在100 000元以下,借款人年龄在55岁以下的区间内。还有以下发现:

  • 在17-20岁之间,借款金额随年龄增长而降低。在20岁是低谷值。
  • 在20-25岁之间,随着年龄的增加,借款金额是不断增加的。
  • 年龄增长至25岁后,借款金额也就进入了平台期。借款金额均值和中位数增长很小。
  • 年龄增长至50岁后,借款交易的积极性降低。交易量略微减少。

2. 借款金额与身份认证指数之间的关系

从2015-01-01到2017-01-30的样本数据来看,用户进行身份认证的意愿并不强烈。由所得到数据来看,有以下发现:

  • 随着身份认证指数的增加,借款金额是有增加的。
  • 随着身份认证指数的增加,指数在(0.25-0.375)范围内时,借款金额的均值、0.2和0.8位数值变化并不大,但是当指数大于0.9时,借款金额曲线陡然上升,可能是原本借款较多的人愿意借更多的钱,也可能是样本量太少而错误影响了曲线。

3. 借款金额与历史成功单次借款金额(hs1LA)的关系

由此可见以下有趣的现象:

  • 随着历史成功单次借款金额的增加,该平台的用户有在开始新一笔交易时,会借更多的钱。
  • 对y轴的处理若采用开方的形式,则拟合曲线形式较为贴近线性关系。

4. 在不同初始等级条件下借款金额的变化情况

LC数据集中的初始等级的数量统计如下,

##    AAA     AA      A      B      C      D      E      F 
##      0      0  10245  33136 131518 134770  17015   1486

箱形图绘制如下,

四分位数间距结果如下,

## LC_clean$初始评级: AAA
## NULL
## -------------------------------------------------------- 
## LC_clean$初始评级: AA
## NULL
## -------------------------------------------------------- 
## LC_clean$初始评级: A
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    1327    3100    5891    5822  500000 
## -------------------------------------------------------- 
## LC_clean$初始评级: B
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    1500    3099    7538    5887  500000 
## -------------------------------------------------------- 
## LC_clean$初始评级: C
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    2134    3300    4137    5000  300000 
## -------------------------------------------------------- 
## LC_clean$初始评级: D
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    2030    3500    3926    5500  150000 
## -------------------------------------------------------- 
## LC_clean$初始评级: E
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    2408    4000    3743    5000   80000 
## -------------------------------------------------------- 
## LC_clean$初始评级: F
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     150    2000    3000    3081    3692   18000

通过箱形图和四分位数间距计算结果,可以发现,

  • A和B评级的状况(均值和四分位数)基本相同。
  • 随着等级不断降低,借款金额均值有提高的趋势。说明初始等级并不会阻碍用户的借款热情。

5. 在不同借款类型下借款金额的变化情况

LC数据集中的借款类型的数量统计如下,

## APP闪电    其他    普通    电商 
##  112011   97161  117931    1067

箱形图绘制如下,

四分位数间距结果如下,

## LC_clean$借款类型: APP闪电
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100     934    1942    2765    4000   20000 
## -------------------------------------------------------- 
## LC_clean$借款类型: 其他
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    2517    3328    4119    4721  500000 
## -------------------------------------------------------- 
## LC_clean$借款类型: 普通
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    3000    4684    5244    6500  120000 
## -------------------------------------------------------- 
## LC_clean$借款类型: 电商
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3000   12000   50000  115561  177209  500000

由此可发现,借款类型为“电商”的用户大部分初始评级为B或C,数据量也没有其他类型的多,但是借款金额不论从均值还是中位数来说都比其他类型高了很多。

6. 不同认证方式之间的关系

项目数据中提供了多种认证方式,我在之前的文字中提到了身份认证指数,这是一个线性模型的结果值,能够综合各种认证方式的效果。我好奇的是每一位用户在进行了某种方式的认证后,是否会影响到他再进行其他认证?先来看下各种认证方式之间的相关性。

手机认证的比例为

## [1] "37.4%"

户口认证的比例为

## [1] "3.02%"

视频认证的比例为

## [1] "5.59%"

学历认证的比例为

## [1] "34.7%"

征信认证的比例为

## [1] "2.91%"

淘宝认证的比例为

## [1] "0.35%"

由此可发现以下有趣的现象,

  • 各种认证方式之间并没有很强的相关性。
  • 视频认证和手机认证和户口认证之间具有一定的相关性。
  • 手机和学历认证是最多被采用的方式。
  • 采用淘宝认证的比例最低。

双变量分析

探讨你在这部分探究中观察到的一些关系。

通过上述图文成果可发现以下有趣的现象,

  • 借款金额会随着借款人年龄、身份认证指数、历史成功单次借款金额(hs1LA)增加而增加。
  • 借款类型为电商的用户,会借更多的钱。
  • 初始评级对借款金额的影响不是很明显,甚至有一定并不明显的负相关性。

你是否观察到主要特性与其他特性之间的有趣关系?

各种认证方式之间并没有很强的相关性,视频认证和手机认证和户口认证之间具有一定的相关性。手机和学历认证是最多被采用的方式,采用淘宝认证的比例最低。

你发现最强的关系是什么?

借款人年龄、身份认证指数、历史成功单次借款金额(hs1LA)与借款金额都是正相关性。可以建立拟合模型找出借款金额与三个变量间对定量统计关系。

多变量绘图

1. 随着借款人年龄的变化,借款金额会发生怎样的变化

LC数据集中年龄的统计量如下,

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   17.00   24.00   28.00   29.14   33.00   56.00
1.1 在不同初始评级条件下,借款金额随年龄发生的变化

  • 从该散点图中可感受随着年龄变化,借款金额变化的总体感觉。在22岁之前借款金额较为稳定,金额数目也不大;在22岁之后,借款总额的均值和中位数值会大于22岁之前的值,而且会有较大数额的借款。
  • 在17-56岁范围内,借款金额大于100 000元的主要是初始评级为B或A的用户。
  • 初始评级为C、D类用户,在年龄跨度内均普遍存在,其借款金额主要分布在50 000元以下。
  • 初始评级为E、F类用户,借款数据量很少。
  • 从散点图分布情况来看,借款金额和年龄的函数关系可能是 y ~ (x-a)^(2n)。

按照年龄切块分组,获取相应年龄分组内的借款金额中位数值,可发现随着年龄越大,借款金额的中位数值越大。

1.2 在不同性别条件下,借款金额随年龄发生的变化

按照性别分面绘图如下,

增加了性别这个维度后,可发现以下有趣现象,

  • 借款金额大于100 000元的标的,评级为A或者B的女性用户交易量要多于男性。
  • 借款金额小于50 000元的标的,女性和男性交易量分布情况类似。
  • 初始评级为A的男性用户借款金额都小于100 000元,而女性用户的借款金额范围分布较广。
1.3 在不同借款类型条件下,借款金额随年龄发生的变化,

按照借款类型分面绘图如下,

增加了借款类型这个维度后,可发现以下有趣现象,

  • 大于100 000元的借款金额主要来自于“APP快闪”或“其他”类型的用户。
  • 初始评级为A的标的主要来自于APP快闪。

2. 随着借款人身份认证指数的变化,借款金额会发生怎样的变化

  • 每个身份认证指数的数量统计
## 
##      0    0.1    0.2    0.3    0.4    0.5    0.6    0.7    0.8    0.9 
## 131722  65089  74567  40766   7027   3252   3718   1148    481    387 
##      1 
##     13
  • 身份认证指数的统计变量
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.1000  0.1276  0.2000  1.0000

可能由于平台推广和用户认可程度导致大量用户没有进行身份认证。这导致了身份认证指数平均值偏低。所以在之后的分析中我提到了不考虑认证指数为0的情况,这种假设分析的意义在于当身份认证得到用户普遍认可时,来预测这种平台价值得到充分发挥的理想情况。

  • 由于大量的身份认证指数为0的用户,所以平均值较低为0.12,但是从散点图分布来看,不考虑为身份认证指数为0的用户,均值应该在0.3-0.5之间。
  • 借款金额大于100 000元的标的,主要来自身份认证指数为0.3-0.5范围的用户。
  • 大量的身份认证指数为0的用户是女性,且是初始评级为A类的用户。值得注意的是,在借款金额大于100 000元的大额标的中,该部分用户占有相当了一部分。
  • 大量的身份认证指数为0的用户是来自APP闪电的用户。
  • 来自电商平台的用户可能不愿意进行身份认证。若不考虑认证指数为0的情况,借款类型为电商的标的中用户的平均身份认证指数低于其他借款类型用户。
对身份认证指数划分区段后的分析

首先将身份认证指数划分区段,并赋予不同的区段名称,例如0 - 0.1为Fair。具体如下,

  • Fair: 0~0.1
  • Good: 0.1~0.2
  • Premium: 0.2~0.5
  • Ideal: 0.5~1

在不同认证指数范围分组范围内,借款金额的变化情况如下,

由此可发现以下有趣的现象,

  • 身份认证指数在0-0.1范围内的交易普遍低于其余范围内的借款金额。
  • 身份认证指数在0.1-0.2范围内的交易的借款金额较高。
  • 年龄大于40岁后,各个范围内的借款金额曲线均有较大的震荡。可能由于数据量较少,也可能由于这个年龄段的借款行为次数减少,不具有代表性的交易数据干扰了曲线形式。

3. 随着借款人历史成功单次借款金额(hs1LA)的变化,借款金额会发生怎样的变化

历史成功单次借款金额的统计量如下,

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       0       0    2500    2811    4000  500000

需要说明的是,上图是放大了历史成功单次借款金额为100-25 000元范围内的变化情况。

由此可发现以下有趣的现象,

  • 从散点图分布情况来看,随着hs1LA的增加,借款金额增加。
  • 相比男性,女性借款用户的历史成功单次借款金额hs1LA 为0的情况更多。
  • 相比其他借款类型,APP闪电和其他类型中的历史成功单次借款金额hs1LA 为0的情况更多。
  • 当 hs1LA 大于200 000后,单次交易的借款金额一般也会大于100 000元。
  • 当 hs1LA 大于200 000后,借款人的初始评级一般为B类。
  • 放大hs1LA在100-25 000范围内的交易来看,这个范围内的用户一般没有较大借款金额的交易(金额普遍小于50 000);当大于3000时,借款金额一定程度上升。

4. 借款行为是冲动还是保守?

可能某一位借款人会借一大笔钱,但是相比历史成功单次借款金额并不大,比如两者比值小于1,说明这位借款人在这笔交易中并没有突破之前的借款金额均值,属于保守的借款行为。我创建了一个新变量借款行为指数,来描述这种是否突破历史借款行为的情况。如果借款行为指数大于1,则为冲动,小于1则为保守。

需要说明的是,如果某笔交易的历史成功单次借款金额hs1LA为0的话,作为分母的除法运算就无法进行,则统一设定这类情况的hs1LA值为1。

借款行为指数的统计量如下,

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##      0.0      0.7      1.2   1516.4   1500.0 500000.0

按照借款类型分类计算的借款行为指数统计量如下,

## LC_clean$借款类型: APP闪电
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##     0.011     0.485     1.057  1270.572  1500.000 12900.000 
## -------------------------------------------------------- 
## LC_clean$借款类型: 其他
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##      0.0      0.7      1.0    446.3      1.5 500000.0 
## -------------------------------------------------------- 
## LC_clean$借款类型: 普通
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##     0.087     0.919     2.177  2350.519  5000.000 30000.000 
## -------------------------------------------------------- 
## LC_clean$借款类型: 电商
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##      0.1      0.8      1.5  32587.1   6000.0 500000.0

按照借款类型分类计算的借款行为指数统计量如下,

## LC_clean$初始评级: AAA
## NULL
## -------------------------------------------------------- 
## LC_clean$初始评级: AA
## NULL
## -------------------------------------------------------- 
## LC_clean$初始评级: A
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##      0.0      0.5      1.0   2219.4      2.9 500000.0 
## -------------------------------------------------------- 
## LC_clean$初始评级: B
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##      0.0      0.6      1.1   2493.6   1500.0 500000.0 
## -------------------------------------------------------- 
## LC_clean$初始评级: C
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##      0.01      0.62      0.99    556.21      1.74 300000.00 
## -------------------------------------------------------- 
## LC_clean$初始评级: D
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##     0.011     0.785     1.769  2047.295  5000.000 20000.000 
## -------------------------------------------------------- 
## LC_clean$初始评级: E
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##     0.012     1.509  2015.000  2433.016  4500.000 19928.000 
## -------------------------------------------------------- 
## LC_clean$初始评级: F
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##     0.078     0.915     2.326  1226.799  3000.000 10000.000

根据以上图文成果,在进行一笔新交易时有以下有趣现象可以发现,

  • 每一笔交易中的借款行为较之以往行为来说并不保守。中位数均大于1。
  • 由于有很多hs1LA被设定为1,所以计算出的借款行为指数很大,拉高了均值。
  • 从借款行为均值来看,来自电商平台的借款行为最为激进。其他平台最为保守。
  • 从初始评级均值来看,评级为B的借款行为最为激进,评级为C的最为保守。

多变量分析

探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,是否存在相互促进的特性?

  • 随着年龄的增加,借款金额会逐步增加,可能到35岁年龄后会逐步降低。所以借款金额和年龄并不是线性关系,可能是类似于二次或更高的偶次方函数关系 y ~ (x-a)^(2n)。
  • 由于大量的身份认证指数为0的用户,所以平均值较低为0.12。在0.1-0.2范围内的交易的借款金额较高,在0-0.1范围内的交易普遍低于其余范围内的借款金额,年龄大于40岁后,各个范围内的借款金额曲线均有较大的震荡。
  • 从散点图分布情况来看,随着hs1LA的增加,借款金额增加。
  • 借款金额会伴随年龄、身份认证指数和历史成功单次借款金额(hs1LA)的变化而发生变化。据此我建立了拟合模型。

这些特性之间是否存在有趣或惊人的联系呢?

  • 每一笔交易中的借款行为较之以往行为来说并不保守。中位数均大于1。
  • 从借款行为均值来看,来自电商平台的借款行为最为激进。其他平台最为保守。
  • 从初始评级均值来看,评级为B的借款行为最为激进,评级为C的最为保守。

你是否创建过数据集的任何模型?讨论你模型的优缺点。

本文建立了针对借款金额的拟合模型。以年龄、身份认证指数、历史成功单次借款金额(hs1LA)为自变量,借款金额为因变量,并对各个变量做了转化,从拟合的结果来看,效果并不是很好。

可能将借款金额进行分块拟合,会得到较好的结果。这也是之后研究过程中,对预测模型的改进点。

借款金额 ~ 年龄、身份认证指数、历史成功单次借款金额(hs1LA)的拟合模型如下,

## 
## Calls:
## m1: lm(formula = I(log(LC_clean$借款金额)) ~ I(abs(LC_clean$年龄 - 
##     29)^4), data = LC_clean)
## m2: lm(formula = I(log(LC_clean$借款金额)) ~ I(abs(LC_clean$年龄 - 
##     29)^4) + LC_clean$身份认证指数, data = LC_clean)
## m3: lm(formula = I(log(LC_clean$借款金额)) ~ I(abs(LC_clean$年龄 - 
##     29)^4) + LC_clean$身份认证指数 + LC_clean$hs1LA, data = LC_clean)
## 
## ================================================================================
##                                       m1              m2              m3        
## --------------------------------------------------------------------------------
##   (Intercept)                         8.025***        7.842***        7.821***  
##                                      (0.001)         (0.002)         (0.002)    
##   I(abs(LC_clean$年龄 - 29)^4)        0.000***        0.000***        0.000***  
##                                      (0.000)         (0.000)         (0.000)    
##   LC_clean$身份认证指数                               1.399***        1.292***  
##                                                      (0.010)         (0.010)    
##   LC_clean$hs1LA                                                      0.000***  
##                                                                      (0.000)    
## --------------------------------------------------------------------------------
##   R-squared                           0.004           0.061           0.079     
##   adj. R-squared                      0.004           0.061           0.079     
##   sigma                               0.812           0.788           0.781     
##   F                                1187.629       10672.569        9351.147     
##   p                                   0.000           0.000           0.000     
##   Log-likelihood                -397302.209     -387555.030     -384435.494     
##   Deviance                       216366.600      203888.028      200048.384     
##   AIC                            794610.418      775118.060      768880.988     
##   BIC                            794642.522      775160.865      768934.495     
##   N                              328170          328170          328170         
## ================================================================================

定稿图与总结

需要说明的是,本部分数据均来自LC数据集。

绘图一

描述一

  • 大量交易的借款金额处在1000~10 000这个范围内(蓝色区域为该范围)。
  • 大于50 000的借款很少,在拍拍贷这个P2P平台中,大量交易还属于小额借款。所以重点关注金额在50 000元以下的业务。

绘图二

根据前文提到的单变量分析成果,本次绘图重点关注金额在50 000元以下的业务。如需关注其他范围交易可以参考之前的绘图。

描述二

  • 借款金额会随着借款人年龄、身份认证指数、历史成功单次借款金额(hs1LA)增加而增加。
  • 借款类型为电商的用户,会借更多的钱。
  • 初始评级对借款金额的影响不是很明显,甚至有一定并不明显的负相关性。

绘图三

需要再次说明的是在拍拍贷这个P2P平台中,大量交易还属于小额借款,本图重点关注金额在50 000元以下的业务。

描述三

本图融合了多变量绘图分析过程中可以观察到的大部分成果。

  • 随着年龄的增加,借款金额会逐步增加,可能到29岁年龄后会逐步降低。可以发现(25,35]和(35,60]年龄范围内的散点一般在(15,25]范围散点之上。
  • 身份认证指数在0.1-0.2范围内的交易的借款金额明显高于(0.2,0.5]和(0.5,1.0].
  • 由于第一个象限内的点远远多余另外三个象限内的点,根据该象限内的点可以发现,随着历史成功单次借款金额(hs1LA)的增加,借款金额增加。

反思

依托拍拍贷平台的交易数据,本文探索了借款金额及相关变量的变化关系。选取了数据集中年龄、初始评级和性别的这些初始变量,根据业务场景创建了身份认证指数和历史成功单次借款金额两个衍生变量,通过可视化手段探究这些变量和借款金额的变化关系。

根据现象分析出的成果对现实交易做出了一些维度的刻画,但仍需要在今后进一步完善以下问题: